| paciente | group | 0-30 días | 0-365 días |
|---|---|---|---|
| 1 | treatment | stroke | stroke |
| 2 | treatment | stroke | stroke |
| 3 | treatment | stroke | stroke |
| 450 | control | no event | no event |
| 451 | control | no event | no event |
Estadística I
Clase 1: Introducción a los Datos
Aproximación Concepto “Estadística”
Los científicos buscan responder preguntas utilizando métodos rigurosos y observaciones cuidadosas. Estas observaciones —recogidas a partir de notas de campo, encuestas y experimentos, entre otros— forman la columna vertebral de una investigación estadística y se denominan datos.
La estadística es el estudio sobre cómo recolectar, analizar y sacar conclusiones de los datos de la mejor manera posible.
Propiedades de los Datos
Estudio de caso:
Uso de stents para prevenir accidentes cerebro vasculares
Datos Tabulares
Hay observaciones que generalmente en los datos tabulares estarán representados por (filas) , las cuales a su vez contienen distintos atributos o variables, que generalmente corresponden a las (columnas).
| paciente | group | outcome |
|---|---|---|
| 107 | treatment | no event |
| 277 | control | no event |
| 301 | control | no event |
| 361 | control | no event |
| 386 | control | no event |
Asignados por Grupo
| Characteristic | N = 4511 |
|---|---|
| group | |
| control | 227 (50%) |
| treatment | 224 (50%) |
| 1 n (%) | |
Cantidad de pacientes en grupo de:
tratamiento (50%)
control (50%)
grupos están balanceados
Resultados 0 a 30 días:
outcome
group no event stroke
control 214 13
treatment 191 33
Resultado 0 a 365 días:
outcome
group no event stroke
control 199 28
treatment 179 45
Tabla con Estadística Descriptiva:
| Characteristic |
0-30 días
|
0-365 días
|
||
|---|---|---|---|---|
| no event N = 4051 |
stroke N = 461 |
no event N = 3781 |
stroke N = 731 |
|
| group | ||||
| control | 214 (94%) | 13 (5.7%) | 199 (88%) | 28 (12%) |
| treatment | 191 (85%) | 33 (15%) | 179 (80%) | 45 (20%) |
| 1 n (%) | ||||
Cálculos de Valores Estadísticos Representativos
| Characteristic |
0-30 días
|
0-365 días
|
||
|---|---|---|---|---|
| no event N = 4051 |
stroke N = 461 |
no event N = 3781 |
stroke N = 731 |
|
| group | ||||
| control | 214 (94%) | 13 (5.7%) | 199 (88%) | 28 (12%) |
| treatment | 191 (85%) | 33 (15%) | 179 (80%) | 45 (20%) |
| 1 n (%) | ||||
Análisis Resultados Obtenidos
De los 224 pacientes del grupo de tratamiento:
33 sufrieron un ACV antes de los 30 primeros días
45 sufrieron un ACV al antes del final de primer año
De los 227 pacientes del grupo de control:
13 sufrieron un ACV antes de los 30 primeros días
28 sufrieron un ACV al antes del final de primer año
En primer lugar, es contrario a lo que los médicos esperaban, que era que los stents reducirían la tasa de accidentes cerebrovasculares. En segundo lugar, nos lleva a una pregunta estadística: ¿muestran los datos una diferencia real entre los grupos?
Esta segunda pregunta es sutil. Supongamos que lanzamos una moneda 100 veces. Si bien la probabilidad de que una moneda salga cara en cualquier lanzamiento es del 50 %, probablemente no observemos exactamente 50 caras. Este tipo de fluctuación forma parte de casi cualquier proceso de generación de datos. Es posible que la diferencia del 8 % en el estudio de los stents se deba a esta variación natural. Sin embargo, cuanto mayor sea la diferencia que observamos (para un tamaño de muestra determinado), menos creíble es que se deba al azar. Por lo tanto, lo que realmente nos preguntamos es lo siguiente: ¿es la diferencia tan grande que deberíamos rechazar la idea de que se debió al azar?
PRECAUCION: NO GENERALIZAR
Pregunta Clave a Responder
¿Los datos representados muestran que existe una diferencia entre los dos grupos?
Supongamos que lanzas una moneda 100 veces. Si bien la probabilidad de que salga cara en cualquier lanzamiento es del 50 %, probablemente no observemos exactamente 50 caras. Este tipo de fluctuación forma parte de casi cualquier proceso de generación de datos.
La diferencia observada anteriormente entre los dos grupos puede ser real o deberse a la variación natural.
Dado que la diferencia es bastante grande, es más creíble que sea real.
Utilizamos herramientas estadísticas para determinar si la diferencia es tan grande que deberíamos rechazar la idea de que se debió al azar.
Ejercicio
La migraña es un tipo de dolor de cabeza particularmente doloroso, que los pacientes a veces desean tratar con acupuntura.
Para determinar si la acupuntura alivia el dolor migrañoso, los investigadores realizaron un estudio controlado aleatorizado en el que 89 mujeres diagnosticadas con migraña fueron asignadas aleatoriamente a uno de dos grupos:
grupo tratamiento: 43 pacientes del grupo de tratamiento recibieron acupuntura específicamente diseñada para tratar las migrañas.
grupo control: 46 pacientes del grupo control recibieron acupuntura placebo (inserción de agujas en puntos distintos a los de acupuntura).
24 después de recibir la acupuntura, se les preguntó si no sentían dolor.
Tabla Resultados
pain_free
group no yes
control 44 2
treatment 33 10
Preguntas a Responder
| Characteristic | no N = 771 |
yes N = 121 |
|---|---|---|
| group | ||
| control | 44 (96%) | 2 (4.3%) |
| treatment | 33 (77%) | 10 (23%) |
| 1 n (%) | ||
a) ¿Qué porcentaje de pacientes del grupo de tratamiento no tenían dolor 24 horas después de recibir acupuntura?
(b) ¿Qué porcentaje del grupo de control no tuvo dolor? Se realizaron pruebas repetidas con el dolorímetro.
Preguntas a Responder
| Characteristic | no N = 771 |
yes N = 121 |
|---|---|---|
| group | ||
| control | 44 (96%) | 2 (4.3%) |
| treatment | 33 (77%) | 10 (23%) |
| 1 n (%) | ||
(c) ¿En qué grupo hubo un mayor porcentaje de pacientes que no sintieron dolor 24 horas después de recibir acupuntura?
Preguntas a Responder- continuación:
(d) Sus hallazgos hasta el momento podrían sugerir que la acupuntura es un tratamiento eficaz para las migrañas en todas las personas que las padecen.
Sin embargo, esta no es la única conclusión posible que se puede extraer con base en sus hallazgos.
¿Cuál es otra posible explicación para la diferencia observada entre los porcentajes de pacientes sin dolor 24 horas después de recibir acupuntura en los dos grupos?
Tipos de Variables
Variables Conjunto de Datos
| loan_amount | interest_rate | term | grade | state | total_income | homeownership |
|---|---|---|---|---|---|---|
| 6000 | 7.96 | 36 | A | CA | 100000 | rent |
| 12800 | 9.44 | 36 | B | CA | 87000 | mortgage |
| 32000 | 9.44 | 36 | B | NV | 112000 | mortgage |
| 6400 | 9.92 | 36 | B | IN | 67000 | mortgage |
| 25000 | 7.96 | 36 | A | MN | 65000 | mortgage |
| 6000 | 9.92 | 36 | B | CA | 60000 | rent |
| 13125 | 10.91 | 36 | B | VA | 116000 | rent |
| 38500 | 12.62 | 60 | C | CA | 160000 | mortgage |
Descripción Variables
| Variable | Descripción |
| loan_amount | Monto del préstamo recibido, en dólares estadounidenses. |
| interest_rate | Tasa de interés del préstamo, en porcentaje anual. |
| term | El plazo del préstamo, que siempre se establece como un número entero de meses. |
| grade | Calificación del préstamo, que toma valores de A a G y representa la calidad del préstamo y su probabilidad de ser reembolsado. |
| state | Estado de EE.UU. donde reside el prestatario. |
| total_income | Ingreso total del prestatario, incluyendo cualquier segundo ingreso, en dólares estadounidenses. |
| homeownership | Indica si la persona es propietaria, es propietaria pero tiene una hipoteca, o alquila. |
Clasificar Cada Variable Según Tipo
| Variable | Tipo Variable |
| loan_amount | |
| interest_rate | |
| term | |
| grade | |
| state | |
| total_income | |
| homeownership |
Ejercicio:
Crear una estructura de datos tabulares con el plan de evaluación del curso
Relaciones Entre Variables
Variables Asociadas
Cuando dos variables muestran algún tipo de conexión se dice que están asociadas.
Debido a que hay una tendencia a la baja en la Figura 1.8 (los condados con más unidades en estructuras de unidades múltiples están asociados con una menor propiedad de vivienda), se dice que estas variables están asociadas negativamente. Se muestra una asociación positiva en la relación entre el ingreso medio hh y el cambio pop en la Figura 1.9, donde los condados con un ingreso familiar medio más alto tienden a tener tasas más altas de crecimiento poblacional.
Si dos variables no están asociadas se dice que son independientes. Es decir, dos variables son independientes si no existe una relación evidente entre ellas.
Variables explicativas y de respuesta.
Variables Explicativas: Se refiere a la variable que se utiliza para explicar o predecir los cambios en otra variable. Por lo tanto, “explicativa” captura esta esencia.
Variable de Respuesta: Se refiere a la variable que se ve afectada o responde a los cambios en la variable explicativa. Por lo tanto, “de respuesta” es la traducción precisa.
Cuando hacemos preguntas sobre la relación entre dos variables, a veces también queremos determinar si el cambio en una variable provoca un cambio en la otra. Considere lo siguiente reformulación de una pregunta anterior sobre el conjunto de datos del condado: Si hay un aumento en el ingreso familiar medio en un condado, ¿impulsa esto una aumento de su población? En esta pregunta, nos preguntamos si una variable afecta a otra. Si este es nuestro subyacente creencia, entonces el ingreso familiar medio es la variable explicativa y el cambio poblacional es el variable de respuesta en la relación hipotética.